1. A importância da visualização dos gráficos
Na Parte V, de nossos textos sobre o tidyverse, especificamnte na parte quando tratamos do pacote dplyr, percebemos que, por mais importante e necessária é a análise númerica dos dados, calculando as estatatísticas convenientes, tal análise não é suficiente.
O conjunto de dados denominado “Quarteto de Anscombe” traduzirá perfeitamente essas ideias.
Vimos que esse conjunto de 4 dados (I, II, III e IV), composto de 11 observações em cada um deles, possui características descritivas numéricas muito peculiares:
para cada grupo de dados, tanto para \(x\) quanto para \(y\): a média é a mesma; o desvio padrão é o mesmo; e, o coeficiente de correlação de Pearson também é o mesmo.
Veja isso na tabela abaixo:
| dados | media_x | dp_x | media_y | dp_y | r_pearson |
|---|---|---|---|---|---|
| I | 9 | 3.316625 | 7.500909 | 2.031568 | 0.82 |
| II | 9 | 3.316625 | 7.500909 | 2.031657 | 0.82 |
| III | 9 | 3.316625 | 7.500000 | 2.030424 | 0.82 |
| IV | 9 | 3.316625 | 7.500909 | 2.030578 | 0.82 |
Todavia, se apenas observarmos os dados dispostos numa tabela, perceberemos que são diferentes:
Mas, quão diferentes? Bom … veja você mesmo:
Quatro conjuntos de dados, completamente difentes, mas com mesmos resultados estatísticos numéricos. Nota-se, então, a importância da visualização de dados!
Mas, não apenas para distinguir os conjuntos de dados enganosos numericamente, mas para comunicar ideias e informações importantes condensadas de forma direta e elegante.
Um exemplo disso é próximo gráfico. Ele faz parte de um conjunto de gráficos interativos1 que mostravam o impacto da vacinação e sua correlação com a incidência de certas doenças. Dentre essas doenças, está o Sarampo ( Measles, em inglês): doença altamente contagiosa (que pode causar cegueira, encefalite, pneumonia, etc).
Apenas para exemplificar, existe uma medida, denominada \(\mathrm{R}_0\), que mede a velocidade de transmissão de uma doença2. Esse valor varia e depende de modelos matemáticos e estruturação dos dados que o pesquisador está usando. Estima-se que para Gripe sazonal o \(\mathrm{R}_0\) está entre \(0.9\) e \(2.1\). Para a Covid-19 estima-se \(\mathrm{R}_0\) entre \(0.4\) a \(5.7\), embora os dados atuais apontem3 para algo entre \(2\) e \(3\). Já o Sarampo, pasmem, possui \(\mathrm{R}_0\) estimado entre \(12\) a \(18\)! Um \(\mathrm{R}_0\) maior do que \(1\), causa uma explosão exponencial. Veja a figura abaixo que mostra a comparação entre difrentes valores de \(\mathrm{R}_0\), bem ditaticamente
Dito isso, o gráfico a seguir relaciona a correlação entre a introdução da vacina para o sarampo (em 1963) e a incidência de infeccções nas pessoas. O número de pessoas infectadas foi medido ao longo de 70 anos, nos 50 estados dos EUA, além do distrito federal.
Veja com calma o gráfico acima!
É um gráfico de calor ( Heatmaps): a corolação diz respeito ao número de casos por 100.000 pessoas. Quanto mais próximo da cor “branca”, menos casos; e, quanto mais próximo da cor vermelha, mais casos. O número de casos variaram de \(0\text{k}\) até \(4\text{k}\), ou seja, de \(0\) a \(4\) mil casos por 100.000 habitantes. Além disso, a linha preta, vertical, indica o início da vacinação contra o sarampo.
Percebe-se, claramente, que os casos diminuíram ao longo do tempo.
Obviamente, estamos tratando, a priori, de uma correlação o que é muito diferente de uma causalidade. Dados podem estar correlacionados, mas um pode não causar o outro (sempre depois que o galo canta, o Sol nasce. Logo, podemos concluir que o Sol aparece porque o galo cantou? Claro que não! Estão correlacionados, mas não são causais)! Para mostrar a causalidade é necessário estudos com grupos controle que eliminam, dentro de certa margem de erro, as possíveis associações entre os objetos relacionados. Neste caso da vacinação contra o Sarampo, já se mostrou a causalidade em diversos estudos randomizados com grupos de controle (inclusive a eficácia da vacina é de 97%, com duas doses4). Portanto, podemos falar que além de estarem correlacionados, possuem uma relação de causalidade.
Além dessa notória maneira de apresentar dados ou resultados, a visualização de dados pode ser útil para estimativas, insight, etc. Por isso, aprender a construir e interpretar gráficos é uma parte importante dentro da Estatística. Usar uma ferramenta adequada e com grande potencial, é fundamental para isso! Por isso usaremos o pacote ggplot2. Inclusive, todos os gráficos acima foram feitos com o ggplot2.
E é sobre ele que falaremos ao longo desse texto.
2. Gramática para Gráficos
3. Relembrando os tipos de Variáveis
4. Construindo os Principais Gráficos
4.1 Gráfico de Pontos (Dispersão ou scatterplot)
4.2 Gráfico de Linhas (Line Plot)
4.3 Gráfico de Colunas
4.3.1 Gráfico de Barras
4.4 Histograma
4.5 Gráfico de Densidade
4.5.1 Ridgeline (Joyplot)
4.6 Boxplot (“caixas e bigodes”)
4.7 E o “gráfico de pizza”?
Recursos Complementares
- ggplot2 extensions - gallery
- Cookbook for R >> Graphs
- ggplot2-book
- R for Data Science - es
- Cheat-Sheet ggplot2
- The R Graph Gallery
- The Data Visualisation Catalogue
- Data Visualization with R
- From Data to Viz
_ _ _____
| | | | / __ \
__ _ __ _ _ __ | | ___ | |_`' / /'
/ _` |/ _` | '_ \| |/ _ \| __| / /
| (_| | (_| | |_) | | (_) | |_./ /___
\__, |\__, | .__/|_|\___/ \__\_____/
__/ | __/ | |
|___/ |___/|_|
veja aqui: https://graphics.wsj.com/infectious-diseases-and-vaccines/↩︎
caso se interesse pela parte matemática, pode olhar esse artigo: https://web.stanford.edu/~jhj1/teachingdocs/Jones-on-R0.pdf↩︎
veja aqui: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7847598/↩︎
como pode ser verificado aqui: https://bit.ly/3uozp2G↩︎